本文简要介绍CVPR2019论文“Sequence-to-Sequence Domain Adaptation Network for Robust Text Image Recognition”的主要工作。该论文主要利用了无标注的目标域数据,结合Attention机制,细粒度地解决文本图像识别中的领域偏移问题。以下内容沿用文章对该方法的缩写:SSDAN。
Fig.1. Examples of different types of domain shift in textimage recognition scenarios.
如Fig.1所示,深度学习模型常常由于源域与目标域之间不可避免的领域偏移,而导致性能下降。这个问题可以通过搜集足够多的已标注目标域数据来解决,但这种方法代价昂贵,且难以覆盖多种多样的目标域数据。近几年来已经有许多的学者针对这个问题提出一些领域自适应的方法,但目前的大多数方法都只适用于单目标任务,不能够直接应用于序列识别。作者在这篇文章中介绍了如何将当前的领域自适应的方法拓展到序列识别领域。
Fig.2.Overall architecture of SSDAN.Fig.2是SSDAN的整体结构。SSDAN可以简单的分为两个部分:第一个部分是用CNN进行特征提取,Attention结合GRU的序列解码的文本行识别网络;第二部分是Gated Attention Similarity(GAS) Unit,用来帮助模型自适应地搜集源域和目标域之间字符级别的领域不变性特征。Attention Unit中的方法是非常朴素的2D Attention方案,利用上一时刻输出特征对每个输入空间位置特征向量计算注意力权重,并最终收集空间上最相关的信息用以预测字符:
此处是Attention Unit中每个时刻Context Vector的集合:Gated Attention Similarity(GAS) Unit 是本文的创新结构。在该结构中,首先设定一个阈值,若识别器的字符输出置信度高于,则保留字符特征,称之为有效字符,反之则舍弃:随后,文章定义了一个相似度 Loss来衡量源域和目标域在有效字符特征上的距离:作者采用了MMD[2],CORAL[3]以及Adversarial Loss[4]这三种方案来计算这个距离,最终发现CORAL[3]方案表现最佳,其计算方法可描述为:其中,及在文章中分别表示源域和目标域的有效字符特征集合及,是源域字符特征的协方差矩阵(目标域的计算方法与源域一致)。最终文章用一个调和参数来整合识别 Loss以及相似度 Loss:值得注意的是该计算方法不需要两个集合具有相同数量的字符特征。
TABLE1. Scene text recognition accuracies.TABLE2. Results on handwritten text (IAM).TABLE3. Results on handwritten mathematical expression.TABLE4. Component Analysis.TABLE5. Comparison to standard domain adaptation.TABLE6. Effect of different domain shift measurement.
Fig.3.The effect ofmodel parameters λ(left) and (right).Fig.4. Examples showing the recognition result, the left column is the input image with ground truth,the second column and the last column denote the recognition result without and with domain adaptation, respectively. Each result is shown in the pair of attention visualization and prediction text.SSDAN-Base是没有GAS Unit的网络,TABLE1、TABLE2、TABLE3分别为场景文本、手写文本行、手写数学公式数据集上的实验效果,可以看到,在不同场景下SSDAN的表现都优于SSDAN-Base,由此证明了GAS Unit的作用。TABLE4在手写文本行(IAM)上对比了不同Backbone以及有无GAS Unit的效果,结论是无论怎样的Backbone,GAS Unit都是有用的,且在使用DenseNet和GAS Unit的情况下效果最好。TABLE5、TABLE6分别是相似度距离在不同计算方法上的性能差异,突出了CORAL[3]的效益。Fig.3 分析了两个Loss的调和参数λ以及门控阈值的设定对模型性能的影响。Fig.4是对Attention Unit的可视化效果。(由于符号定义过多,更详细的内容请参考原文,链接附后)。- SSDAN 是针对于序列任务提出来的领域自适应网络,具有很多应用场景。
- SSDAN 利用Attention机制,在细粒度的字符特征层面进行领域自适应,而不是粗糙地在整图上工作。
- SSDAN 利用了没有标注的目标域数据进行领域自适应,无需额外成本。
- Sequence-to-sequence domain adaptation network for robust text image recognition论文地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_Sequence-To-Sequence_Domain_Adaptation_Network_for_Robust_Text_Image_Recognition_CVPR_2019_paper.pdf
- Learning transferable features with deep adaptation networks论文地址:https://arxiv.org/pdf/1502.02791.pdf
- Deep coral: Correlation alignment for deep domain adaptation论文地址:https://arxiv.org/pdf/1607.01719.pdf
- Unsupervised domain adaptation by backpropagation论文地址:https://arxiv.org/pdf/1409.7495.pdf
[1] Zhang Y, Nie S, Liu W, et al. Sequence-to-sequence domain adaptation network for robust text image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 2740-2749.[2] Long M, Cao Y, Wang J, et al. Learning transferable features with deep adaptation networks[J]. arXiv preprint arXiv:1502.02791, 2015.[3] Sun B, Saenko K. Deep coral: Correlation alignment for deep domain adaptation[C]//European Conference on Computer Vision. Springer, Cham,2016: 443-450.[4] Yaroslav Ganin and Victor Lempitsky. Unsupervised domain adaptation by backpropagation. In Proceedings of the 32nd International Conference on International Conference on Machine Learning-Volume 37, pages1180–1189. JMLR. org, 2015.原文作者:Yaping Zhang,Shuai Nie, Wenjun Liu, Xing Xu,Dongxiang Zhang, Hengtao Shen
编排:高 学
审校:连宙辉
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。
(扫描识别如上二维码加关注)